查看原文
其他

郭老师统计小课堂 | 如何知道别人有没有作弊?

狗熊会 2023-10-03

Editor's Note

郭老师统计小课堂向读者介绍和分享统计学的知识、趣事、方法和思想。希望能对统计学的传播起到一定积极作用,同时也希望更多的统计同仁一起分享更多的统计知识。让整个社会都感受统计学的魅力和力量。

The following article is from 郭老师统计小课堂 Author 杜讴妍,周与然

抽样调查是统计学中获取数据的一种重要手段。但在一些敏感性问题的调查上,出于保护隐私等原因,被调查者可能不愿诚实作答,这就使得样本数据的真实性得不到保障,进一步甚至使得整个研究都将失去意义。

比如,学校想要知道大家在某一项考试中是否存在作弊现象,如果直接调查采访那显然毫无意义,究竟应该如何设计才能成功得到真实的作弊者比例呢?本文将就这一问题展开讨论。

Part1敏感性问题的概念

所谓敏感性问题即指涉及到被调查者的秘密、禁忌等令其不愿回答或者不愿真实回答的问题。因此,处理敏感性问题的关键在于“获取”被调查者的信任,消除被调查者的顾虑,得到真实的数据。

Part2敏感性问题的解决办法——随机化回答技术RRT

在统计学中,对于处理敏感性问题,比较流行的做法是使用随机化回答技术(Randomized Response Technique, RRT)。它通过在调查中事先设置一个特定的随机化装置,使得被调查者以预定的概率 来回答敏感性问题。这一方法可最大限度地保护被调查者的隐私,从而取得被调查者的信任。

现阶段随机化回答技术最常用的模型有沃纳模型西蒙斯模型。下面将就这两个模型进行介绍。

1沃纳模型

沃纳模型是1965年由Warner提出的。其基本思想是提供给被调查者两个与敏感性问题有关但又完全对立的问题,让被调查者在随机化装置的作用下以一个预定的概率P选择其中的一个问题作答,调查者无权过问也绝不会知道被调查者究竟回答了哪一个问题。由于调查者不会得知被调查者回答的是哪个问题,被调查者大可放心地如实作答,数据的真实性由此可得到保障。

下面谈谈用沃纳模型来处理敏感性问题的具体做法。

  • 首先设总体可分为两类:

    1.具有敏感性特征的一类,其在总体中的比例为

    2.不具有敏感性特征的一类,其在总体中的比例为

  • 然后为这个调查设计一个随机化装置,被调查者在随机化装置的作用下以概率选择问题或以概率选择问题作答。两个问题的答案均为“是”或“否”,可以通过回收的问卷得知被调查者答案为“是”的概率

  • 之后再用全概率公式求解得到我们想要的答案,即具有敏感性特征的人在总体中的比例

对于同学们在某一项考试中是否存在作弊现象,我们可以:

首先设计出两个对立问题:

问题:你是否在该堂考试作弊?

问题:你是否并未在该堂考试中作弊?

然后邀请被调查的同学进入一个完全独立的房间,里面不会有工作人员,也没有安装摄像头,整个作答过程仅由被调查者一人操控。房间里有一个装着红、白小球的不透明箱子,两种小球仅颜色上有差别,这就是我们的“随机化装置”。

被调查者通过摸球来决定自己将要回答的问题,如果摸到红球,则回答:你是否在该堂考试作弊?倘若摸到白球,则回答问题:你是否并未在该堂考试中作弊?两个问题能够选择的答案都只有“是”和“否”两个。

假设:

则由全概率公式

得到

由此解得具有敏感性特征(即在考试中作弊)的人在总体中的比例


在实际应用中,当样本量足够大时,假设共有个人回答“是”,于是用样本来估计总体,即用来近似,由此得到的估计值:

具体的R语言操作见下:

π <- function(m, n, P){
  return((m/n+P-1)/(2*P-1))
}

沃纳模型的缺陷

沃纳模型虽然在一定程度上消除了被调查者的顾虑,但仍存在三个明显的缺陷:

1.设计的这两个问题存在明显的相关关系,这使被调查者仍有可能怀疑而不予合作。

2.在沃纳模型的公式中要求(抽到回答某道题的概率)不能等于,否则沃纳模型就无法使用。但是从消除被调查者的顾虑的角度考虑,应使等于、保证被调查者抽到两种问题的概率一样才好。

3.即使满足了不等于的条件,仍有可能得出没有实际意义的估计值(不在内)。比如当收集的样本量固定时, 的取值应当介于之间(可相等),否则得出的值没有意义。

2西蒙斯模型

西蒙斯模型是1967年由Simons提出的。其基本思想仍以沃纳模型为基础,但是在沃纳模型的基础上进行了一些改进。它将沃纳模型中与敏感性问题相对立的问题改为一个与敏感性问题不相关的其他问题

其处理敏感性问题的具体做法:

因为其大致做法和沃纳模型相似,我们直接以求“在某一项考试中作弊同学的比例”为例进行讲解:

首先设计出两个问题:

问题:你是否在该堂考试作弊?(具有敏感性特征)

问题:你是六月份出生的吗?(与敏感性问题无关)

然后邀请被调查的同学进入房间内,通过摸球来选择回答的问题(这里与沃纳模型中的设置一样)。

假设:


则由全概率公式

得到

要想解得,我们需要知道六月份出生的人在总体中所占的比例,从而得到


从这里可以看出沃纳模型中要求的问题被成功消除。

而在实际应用中,需要已知。这是容易做到的,比如在上例中。假设被调查者总数是,而共有m个人回答“是”,仍旧用来近似,由此得到的估计值:

具体的R语言操作见下:

π <- function(m, n, P, π'){
  return((m/n-((1-P)*π'
))/P)

西蒙斯模型的缺陷

西蒙斯模型很好地消除了沃纳模型的前两个缺陷,但仍未解决的取值问题,因此在实际使用中大家仍需要对回答“是”的人数进行检验,倘若不在使得有意义的取值范围内,该调查需要重做。


Part3参考文献:

1.https://www.docin.com/p-1664468578.html 2.https://zhuanlan.zhihu.com/p/135523164 3.https://wenku.baidu.com/view/9ea8db1af18583d0496459af.html?fr=xueshu

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存